AIエージェントについて調べる by wogikaze
2025/6/8 現在の話
生成AIの誕生によって汎用的なことができるようになった
今まではAIと言えば分類/データの外挿に使っていた
LLMによって
人間が自然言語で命令できるように
コード生成ができるように
VLMによって
人間向けのUIでもAIがある程度操作できるようになった
以前もスクリーンリーダー配慮のあるUIは操作できたbsahd.icon
現在のbrowser useも、画像だけでなくテキスト要素はテキストとして入力してるはず
ので
SlackやGithub上で自然言語で指示して、コードを編集させる
コードエディタ上で指示すると、指示が達成されるまでPDCAを回し続ける
ブラウザを動かして買ったり予約したり
エージェントどうしが通信できるとできることが増えるよね、ということでプロトコルを定義した
などが出てきた
これからどうなるか?
自然言語で開発が進むように機能が増えていくwogikaze.icon
コンテキストを適切に与えられるようにプレーンテキストで貯めていく
以下は2024/12の話
出典(記事・note・ブログetc)
複数ファイルの一括編集
ターミナルコマンドの自動実行
ゲームのNPCとして
ソフトウェア開発・カスタマーサポート・企業ワークフロー効率化など
応用(プロダクト)と基礎(精度)
過去の経験をメモリから引き出して、計画して、行動して、振り返って、目標を達成したか確認するプロセスはどのエージェントも同じです。
行動が様々なので評価がバラバラ
https://gyazo.com/6d8e320967107378c743717d27e63164
メタファー
基本的には下の画像のフローを行い、他の部分は微々たる差でしかない
https://gyazo.com/406e18576ed7cc2ed70dffc9b4458382
生成AIエージェントと業務ソフトウェアの結びつきが強くなる
GUIからコンピュータを制御するのはまだ難しい
https://gyazo.com/a0a97b93c4f79f84432e1a788fe7ec72
タスクの抽象度が高いほど「エージェントらしさ」が活きる
既存のGoogleやOpenAI の既存のエージェントの応用事例はどれもタスクの抽象度が高いです。 どんな事例かというと、データ分析、ソフトウェア開発、Webナビゲーション、Web情報検索による質問応答です。
1) 課題はある程度明確だが、答えが一意でない
2) 業務成果物のバリエーションが多く、都度カスタマイズが必要
3) 業務の中に複数ツール・データソースを利用する
7) 複数ステークホルダーがレビュー/承認し合うワークフロー
評価指標は大きく以下の4つのカテゴリに分けられ、それぞれの特性と用途を解説します。
精度 (Accuracy) : 最終的なタスク達成度, 個別の機能の精度
システム (System) : システムメトリックは効率性とユーザー体験に関わる指標
エラー (Error) : タスクやツールの実行が正しく完了したかを評価する
実行経路 (Execution Path) : ツールの選択プロセス
ワークフロー
事前に決められた手順をAIが実行する仕組み。たとえば、「①データを取り出す → ②分析する → ③結果をまとめる」といった流れです。
コードを書いて、順々に処理していくのもこれ
エージェント
柔軟にタスクを解釈し、自らの判断で必要な手順やツールを使い分ける仕組みです。たとえば、「売上を分析して改善策を出して」と依頼したら、データ収集からレポート作成までをAIが判断しながら進めます。
LLMに使うツールなどを選ばせるのがエージェントという認識でよさげ
エージェントのワークフロー
https://gyazo.com/a58847f432a6a9784d0dbd7fc3bd854d
LLMがタスクを分割し、LLMに仕事を割り振る
https://gyazo.com/e8b0cbed003458bc0fceba7e91d15d28
https://gyazo.com/93357dee7a42101c04ab48df22e4937a
これ強化学習で見た図やなwogikaze.icon ブラウザを自動操作する
AIエージェントの設計・評価するフレームワーク
https://www.youtube.com/watch?v=kUk6ShVeInI
観覧席
ですねwogikaze.icon